Extração de Dados de Conferências a Partir da Web

نویسندگان

  • Cássio Alan Garcia
  • Viviane P. Moreira
چکیده

Choosing the most suitable conference to submit a paper is a task that depends on a number of factors including: (i) the topic of the paper needs to be among the topics of interest of the conference; (ii) submission deadlines need to be compatible with the necessary time for paper writing; and (iii) the quality or impact of the conference. These factors allied to the existence of thousands of conferences, make the search of the right event very time consuming, especially when researching in a new area. Intending to help researchers finding conferences, this paper presents a method developed to retrieve and extract data from conferences web sites. Our method combines the identification of conference URL and deadline extraction. The retrieved data is stored in a database to be searched with an online tool. The paper also reports on experiments that evaluate the quality of the extracted data, focusing on the deadlines. Resumo. A escolha da conferência adequada para o envio de um artigo é uma tarefa que depende de vários fatores incluindo: (i) o tema do artigo deve estar entre os temas de interesse do evento; (ii) o prazo de submissão do evento deve ser compatı́vel com tempo necessário para a escrita do artigo; e (iii) a qualidade da conferência. Esses fatores aliados à existência de milhares de conferências tornam a busca pelo evento adequado bastante demorada, em especial quando se está pesquisando em uma área nova. A fim de auxiliar os pesquisadores na busca de conferências, esse artigo apresenta um método desenvolvido para a coleta e extração de dados de sites de conferências. Este método combina a identificação de URLs de conferências da Tabela Qualis à identificação de deadlines. Os dados coletados populam uma base de dados que poderá ser consultada através de uma ferramenta online. O artigo também relata experimentos que avaliam a qualidade dos dados extraı́dos, enfatizando a extração dos deadlines. 1. Introdução O processo de escrita e submissão de artigos cientı́ficos é crucial na vida dos pesquisadores. A escolha do periódico ou conferência mais adequados para a divulgação da pesquisa realizada é uma tarefa bastante importante e que por vezes toma bastante tempo dos pesquisadores. Existem milhares de conferências cientı́ficas que ocorrem anualmente. Quando se deseja submeter um artigo para uma conferência, vários aspectos precisam ser levados em consideração: (i) tema do trabalho deve estar entre os temas de interesse do evento para que ele possa ser considerado; (ii) é necessário saber se os prazos (deadlines) do evento são compatı́veis com os do término da escrita do artigo (ou algum outro critério temporal como o prazo para a conclusão do curso, por exemplo); (iii) questões de valores 32nd SBBD – Full Papers – ISSN 2316-5170 October 2-5, 2017 – Uberlândia, MG, Brazil

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Uma Abordagem para Armazenamento de Dados Semi-Estruturados em Bancos de Dados Relacionais

This paper presents an approach to storing semistructured data in relational databases. We focus on semistructured data as extracted from Web pages by a tool called DEByE (Data Extraction By Example), and organized according to its data model, the DEByE Object Model (DEByE-OM). The approach presented here consists in representing the structure of objects extracted by DEByE by a relational schem...

متن کامل

Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Um dos problemas da extração de dados na web é a remoção de ruídos existentes nas páginas. Esta tarefa busca identi car todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruídos pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de...

متن کامل

Uma Abordagem para Detecção e Extração de Rótulos em Formulários Web

Deep Web volume continues to increase as well as the interest to discover and extract Web hidden database data and schemata. This is motivated by applications that intend to provide uni ed search over several Web forms or the hidden content of Web databases. On considering this context, this paper presents an approach for detecting and extracting labels in Web forms. For detecting a Web form, w...

متن کامل

Definição e Avaliação de uma Abordagem para Extração e Catalogação de Conteúdo Obtido da Deep Web

This paper presents an approach for the extraction and labeling of data presented in Deep Web databases. Such a data are extracted from a set of HTML pages generated as the result of a query posed on the hidden database through a Web form. Data labeling (and persistence) aims at providing further structured queries over this hidden content. Preliminary experiments had demonstrated that the prop...

متن کامل

Extrator de fatos relacionados ao tráfego

With the increasing use of the Web, data are created and consumed by a large number of people and agents. Recently, social networking started to play an important role in this scenario, where many users share data, forming a large knowledge base. This work aims at extracting facts relevant to traffic from Twitter, chosen as a case study, through the analysis of sentences written in Portuguese. ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2017